4 research outputs found
Towards an environment for the production and the validation of lexical semantic resources
International audienceWe present the components of a processing chain for the creation, visualization, and validation of lexical resources (formed of terms and relations between terms). The core of the chain is a component for building lexical networks relying on Harris' distributional hypothesis applied on the syntactic dependencies produced by the French parser FRMG on large corpora. Another important aspect concerns the use of an online interface for the visualization and collaborative validation of the resulting resources
Towards an environment for the production and the validation of lexical semantic resources
International audienceWe present the components of a processing chain for the creation, visualization, and validation of lexical resources (formed of terms and relations between terms). The core of the chain is a component for building lexical networks relying on Harris' distributional hypothesis applied on the syntactic dependencies produced by the French parser FRMG on large corpora. Another important aspect concerns the use of an online interface for the visualization and collaborative validation of the resulting resources
Vers un environnement de production et de validation de ressources lexicales sémantiques
National audienceWe present some components of a processing chain for the creation, visualization, and validation of lexical resources (terms and relations). At the heart, we find a component for building lexical networks relying on Harris' distributional hypothesis applied on the syntactic dependencies produced by the French parser FRMG on large corpora. Another important aspect concerns the use of a WEB interface for the visualization and collaborative validation of the resulting resources.Nous présentons quelques composants d'un environnement pour la production, la visualisation et la validation de ressources lexicales (termes et relations). Au coeur se trouve un composant de construction de réseau lexical entre termes s'appuyant sur l'hypothèse distributionnelle de Harris appliquée aux dépendances syntaxiques produites par l'analyseur FRMG sur gros corpus. Un autre aspect important concerne l'utilisation d'une interface WEB pour la visualisation et la validation collaborative des ressources produites
Extraction du vocabulaire spécifique à partir d'un corpus web sélectionné pour un nuage de mots
Le nuage de mots n'est qu'une disposition graphique particulière de l'information. En général relativement faible d'intérêt, qu'en est-il si nous lui demandions d'afficher le vocabulaire spécifique d'un corpus ? Mais, pour commencer, qu'est-ce que ce vocabulaire ? Nous tenterons de répondre à ces questions, mais aussi d'expliciter les solutions que nous avons mises en place pour l'extraire et n'en conserver que l'essence, notamment grâce aux calcul des n-grammes, draguant les formes composées et les expressions figées ainsi que les entités nommées. À travers les différents algorithmes développés, nous exposerons les difficultés auxquelles nous avons été confronté ainsi que les critiques et la validité des résultats obtenus. Nous proposerons ainsi pas à pas notre démarche en justifiant nos choix et les parti-pris effectués, l'intérêt d'utiliser des n-grammes, l'utilité des grammaires et les systèmes de pondération